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Resume 

Le principal objet de cette communication est de faire une retro perspective succincte de I'utilisation de 
I'entropie et du principe du maximum d'entropie dans le domaine du traitement du signal. Apres un bref 
rappel de quelques definitions et du principe du maximum d'entropie, nous verrons successivement comment 
I'entropie est utilisee en separation de sources, en modelisation de signaux, en analyse spectrale et pour la 
resolution des problemes inverses lineaires. 

Mots cles : Entropie, Entropie croisee. Distance de KuUback, Information mutucUc, Estimation spectrale, 
Problemes inverses 

Abstract 

The main object of this work is to give a brief overview of the different ways the entropy has been used 
in signal and image processing. After a short introduction of different quantities related to the entropy and 
the maximum entropy principle, we will study their use in different fields of signal processing such as : source 
separation, model order selection, spectral estimation and, finally, general linear inverse problems. 

Keywords : Entropy, Relative entropy, KuUback distance. Mutual information. Spectral estimation. Inverse 
problems 

1 Introduction 

En 1945, Shannon a introduit la notion de I'entropie associee a une source qui est modelisee 
par une variable alatoire discrete X, comme la moyenne de la quantite d'information apportee par 
les realisations de cette variable. Depuis cette date, cette notion a eu un tres grand usage dans le 
domaine du traitement de I'information et particulierement en codage et compression des donnees 
en telecommunications. 

En 1957, Jaynes |§, |^, ^ a introduit le principe du maximum d'entropie pour I'attribution d'une 
loi de probabilite a une variable aleatoire lorsque la connaissance sur cette variable est incomplete. 

En 1959, Kullback |^] a introduit une mesure de I'information relative (entropie relative) d'une 
loi de probabilite par rapport a une autre. Cette mesure a aussi ete consideree comme une mesure 
de distance entre ces deux lois. 

Depuis, ces notions ont eu une influence importante et un usage etendu dans divers domaines 
du traitement de I'information, de I'inference en general, mais aussi du traitement du signal et des 
images. 

Le principal objet de ce travail est de fournir une vue synthetique et breve des principaux 
usages de ces notions en traitement du signal. Apres un rappel de quelques deflnitions, des relations 
importantes entre les differentes quantites et I'expose du principe du maximum d'entropie, nous 
verrons successivement comment I'entropie est utilisee en separation de sources, en modelisation 
de signaux, en analyse spectrale et pour la resolution des problemes inverses lineaires. 
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1.1 Rappels et definitions 

L'entropie associee a une variable aleatoire scalaire discrete X avec des realisations {xi, • • • , xn} 
et la distribution de probabilites {pi, ■ ■ ■ ,Pn} mesure son desordre. Elle est definie par 

TV 

R[X] = -Y,Pi\npi. (1) 

i=l 

Avec quelques precautions, cette definition pent etre etendue au cas d'une variable aleatoire con- 
tinue X avec une densite de probabilite p{x) par 

B.[X] = - [ p{x) lnp{x) dx. (2) 



Par extension, si on considere un couple de variables alcatoircs {X,Q) avec des lois p{x), p{d), 
p{9\x), p{x\9) et p(x,6), on peut definir les entropies respectivement associees : 

- Entropie de 6 : 

H[e] = - / p{9) lnp{e)d0 (3) 



- Entropie de Q conditionnellement k X = x : 

B.[e\x] = - J p{e\x)\np{e\x)de (4) 

- Entropie de X conditionnellement a Q = 9 : 

R[X\9] = - J p{x\9) lnp(a;|^)da; (5) 

- Entropie de {X, 9) : 

R[X,@] = - JJ p{x, 9) In p{x, 9) dx d9. (6) 

Avec ces definitions on definit aussi les quantites suivantes : 

- Difference entropique de pi et p2 : 

(5H[pi,p2] =HN-H[P2] (7) 

- Entropie relative de p\ par rapport a p2 ■ 

B\p,:p2] = - [pi{x)ln^^dx (8) 

J P2{X) 

- Distance de Kullback de pi par rapport a p2 ■ 

K bi : P2] = -D [pi : P2] = ! Pi{x) In (9) 

J P2{X) 

- Information mutuelle cntre Q et X : 

l[e,X] = Ex{dR[p{9),p{9\x)]} = Ee{S}i[p{x),pix\9)]} (10) 

= H[x] -H[x|e] = H[e] -H[e|x] (ii) 



ou 



H[e|X] = Ex {il[e\x]} = J R[e\x] p{x) dx (12) 
R[X\@] = Ee{il[X\9]} = lH[X\9]p{9)d9 (13) 
avec les relations suivantes entre ces differentes quantites : 

H[x,e] = H[x] +H[e|x] =H[e] + H[x|e] = H[x] +H[e] -i[e,x] (i4) 

I [6, X] = D \p{x, 9) : p{x)p{9)] = Ex {D \p{9\x) : p{9)]} = Eq {D lp{x\9) : p{x)]} . (15) 
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On peut aussi remarquer les proprietes suivantes : 

- L'information mutuelle I[0, X] est une fonction concave de p{9) pour p{x\6) fixee et une 

fonction convcxc dc p{x\9) pour p{9) fixee, ct on a I [0, X] > avcc egalitc si X ct sont 
independantes. Cette proprictc est utilisce en communication pour definir la capacite d'un 
canal lorsque X est transmis et Q est recu : 

C = argmax{I[e,X]} (16) 
p(6>) 

- L'entropie relative D [pi : P2] est invariante par changement d'echelle mais n'est pas symetrique. 
C'est pourquoi on introduit 

Jbi>P2] = D [Pi : P2] +D b2 : Pi] , (17) 

qui est symetrique et invariante par changement d'echelle, comme une mesure de divergence 
entre pi{x) et P2{x). 

- La puissance entropique (PE) d'une loi p{x) est definie comme la variance d'une loi gaussienne 
ayant la meme entropie. En notant que l'entropie d'une loi gaussienne est ^ ln(27re(T^), on 
obtient 

2[Hb]-iln(27re)] 



PE [p] = exp 



exp[2 5H[p,A/'(0,l)]]. (18) 



2 

PE [p] est une mesure de proximite de p a une densite gaussienne reduite. 

1.2 Lien entre entropie et vraisemblance 

Considerons le probleme de I'estimation des parametres 6 d'une loi de probabilite p(x\6) a 
partir d'un n-echantillon x = {xi, • • • , Xn}- La log- vraisemblance de 6 est definie par 

n 

Lie) = J2 lnp(rr|0). (19) 

i=l 

Maximiser L(0) par rapport a 9 donne I'estimation au sens du maximum du vraisemblance (MV). 
Notons que L{9) depend de n, c'est pourquoi on peut s'interesser a ^L{9) et definir 

Z(6>) = lim -L(6>) = E{lnp(a;|6>)} = / p(x|6>*) lnp(x|6>)dx, (20) 

ou 9* est le presume "vrai" vecteur des parametres et p{x\9*) la loi de probabilite correspondante. 
On peut alors noter que 

D \p{x\9*) : p{x\9)] = - J p{x\9*) In " / ^(^1^*) lnp(a;|6l*) dx + L{9) (21) 

et que 

argmax {D [p(x|0*) : p(a;|0)]} = argmax {L{9)} . 
9 9 

1.3 Lien entre entropie et la matrice d'information de Fisher 

On considere D [p(a;|0*) : p{x\9* + A9)] et suppose que \np{x\9) est developpable en serie de 
Taylor. En ne gardant que les termes jusqu'a I'ordre deux, on obtient 

D [p{x\9*) ■ p{x\9* + Ae)] ~ ^M^F/\9. (22) 



oil F est la matrice d'information de Fisher : 

39*89 



A^.'-P^-m^9]- (23) 



4 



A. Mohammad-Djafari 



1.4 Cas d'un vecteur ou d'un processus aleatoire 



Toutes ces definitions sont facilement etendues au cas d'un vecteur aleatoire ou d'un processus 
aleatoire stationnaire. Par exemple, il est facile de montrer que I'entropie d'un vecteur aleatoire de 
dimension n avec une densite gaussienne Af{0, R) est 



77 1 

/7=-ln(27r) + -ln(|det(i?)|) 

et que I'entropie relative entre deux lois gaussiennes Af{0, R) et M{0, S) est 

|det (R) 



D 



-l(tr (RS-' 



log 



|det (5) 



n 



(24) 



(25) 



De meme, on montre que pour un processus aleatoire stationnaire et gaussien dont la matrice de 
covariance est Toeplitz, on a 



lim —H{p) = — 



n >oo 7^ 



2tT J-tt 



In S{u!) duj 



(26) 



ou S{uj) est sa densite spectrale de puissance (dsp), et pour deux processus stationnaires et gaussiens 
de densites spectrales de puissance Si{uj) et S2{uj), on a 



hm -D(jpi : p2) = — / tt-t^ - In 



1 dio 



(27) 



et on retrouve la distance de Itakura-Saito 0, ^ en analyse spectrale. 

1.5 Principe du maximum d'entropie (PME) 

Lorsqu'on doit attribuer une loi de probabilite a une variable X sur laquelle on a une information 
partielle, il est preferable de choisir la loi d'entropie maximale parmi toutes les lois compatibles 
avec cette information. La loi ainsi choisie est la moins compromettante au sens qu'elle ne contient 
que I'information disponible (elle n'introduit pas d'information supplementaire). 

En termes mathematiques, considerons la variable X et supposons que I'information disponible 
sur X s'ecrit 

E{0fc(X)} = 4, k = l,...,K. (28) 

oil 4>k sont des fonctions quelconques. Evidemment, il existe une infinite de lois p{x) qui satisfont 
ces contraintes. Alors le PME s'ecrit 



p{x) = argmax < H [p] = — / p{x) lnp{x) dx > 
per I J } 



(29) 



ou 



V 



p{x) : / (t)k{x)p{x) dx = dk, k = 0, . 



avec (?!)o = 1 et do = 1 pour la contrainte de normalisation. 

Sacliant que H [p] est une fonction concave de p et que les contraintes (p8|) sont lineaires en p, 
la solution s'ecrit 

p{x) = 777-77 exp 



Z(A) 



K 



I k=l 



(30) 



oil Z[X) est la fonction de partition Z{X) = J exp[— J2k=i ^k4'k{x)] dx et A = [Ai, . . . , A^]* verifie 



ZiX) 



K 



Xk4>k{x) 



L k=l 



k=l. 



(31) 



Entropie en Traitement du Signal 



5 



La valeur maximale de I'entropie est 



//max= lnZ(A)+A*y. 



(32) 



Le probleme d 'optimisation (^) s'etend facilement en remplagant I'entropie H{p) par I'entropie 
relative D\p : q] oh q{x) est une loi a priori . Pour plus de developpements sur ce sujet on peut se 
referer a g |, O et a [0, 111 111 . 



2 Entropie en separation de sources 

Le modele le plus simple en separation de sources est a; = As ou, s est le vecteur sources, 
X est le vecteur des mesures et A est la matrice du melange, supposee inversible en general. Le 
probleme est souvent pose comme celui de I'estimation d'une matrice de separation B = 
ou B = SAA-^ est une matrice de permutation d'indices et A une matrice diagonale, de 
telle sorte que les composantes du vecteur y = Bx soient independantes. La notion d'entropie est 
utilisee a ce niveau comme un outil pour assurer cette independance. D'une maniere plus generale, 
considerons un traitement de la forme yi = g{[Bx\i) o\x g est une fonction monotone et croissante. 
On a alors 

PY{y) = \Qy/Q^f x^^) H(y) = -E{lnpy(y)} = E{ln\dy/dx\} - H{x). (33) 

H{y) est utilisee comme une mesure de I'independance des composantes du vecteur y et on estime 
alors la matrice de separation B en maximisant H[y) par rapport aux elements de cette matrice. 
A titre de comparaison, on note que I'estimation de B au sens du maximum de vraisemblance 
s'obtient en maximisant 

V{B) = J2 Inp. {[Bx]i) - log |det (B) \ (34) 

i 

lorsque les sources Si sont supposees independantes avec Pi[s.i) connues. 



3 Entropie en modelisation de signaux 

L' identification de I'ordre d'un modele en traitement du signal est un sujet primordial et en- 
core ouvert. Lorsque I'ordre du modele (dimension du vecteur parametre 9) est fixe, I'estimation 
d'une valeur optimale (au sens du maximum du vraisemblance, du maximum a posteriori (MAP) 
ou d'autres estimateurs bayesiens) est bien etablie, mais la determination de I'ordre du modele 
est encore matiere a discussion. Parmi les outils utilises, on peut mentionner I'entropie, ou plus 
exactement D [p{x\0*) : p{x\6)]^ ou 9* represente le vrai vecteur des parametres de dimension k* 
et 6 le vecteur estime de dimension /c < /c*. Le fameux critere d'Akaike |jl6|, 17, |l^, |l^, utilise 



ainsi cette quantite pour determiner I'ordre optimal du modele dans le cadre specifique des modeles 



lineaires (en les parametres), des lois gaussiennes et de I'estimation au sens du MV |21]. 



4 Entropie en analyse spectrale 

L'entropie est utilisee de multiples fagons en analyse spectrale. La presentation classique de 
Burg ||22[ se resume ainsi : 

Soit X{n) un processus aleatoire centre et stationnaire, dont nous disposons d'un nombre fini 
d'echantillons de la fonction d'autocorrelation 

r{k) = E {X{n)X{n + k)} = — T S{oo) exp []kuj] dw. A: = 0, . . . , K. (35) 

27r j-TT 

La question est d'estimer la densite spectrale de puissance 

oo 

= XI r{k)eyLY>[-]ku:] 

k=—oo 
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de ce processus. Considerons maintenant le probleme de I'attribution d'une loi de probabilitep(a;) au 
vecteur 2L = [-'^(O)) • • • > X{N — 1)]^. Utilisant le PME et en remarquant que les contraintes ( ^5|) sont 
quadratiques en X, on obtient une loi gaussienne pour X. Pour un processus centre, stationnaire 
et gaussien, lorsque le nombre d'echantillons N — > oo, I'expression de I'entropie devient 



H= In SiLj)duj. 

J —n 

On cherche alors a maximiser H sous les contraintes (^5|). La solution est bien connue : 

1 



K 



X! Afcexp[jfcu;] 

z=-K 



2 ' 



(36) 



(37) 



ou A = [Ao, • • • , A/v]*, les multiplicateurs de Lagrange associes aux contraintes (|35|), sont ici equivalents 
aux coefficients d'une modelisation AR du processus X{n). Notons que dans ce cas particulier, il y 
a une expression analytique pour A, ce qui permet de donner une expression analytique directe de 
S{ijo) en fonction des donnees {r{k), k = 0, ■ ■ ■ , K} : 



S{u;) 



(38) 



oil r = Toeplitz(r(0), • • • , r(K)) est la matrice de correlation des donnees et d et e sont deux 
vecteurs definis par 5 = [1, 0, • • • , 0]* et e = [1, e-J"^, e'i^'^ , 6"^^^]*. 

Notons que nous avons utilise le PME pour choisir une loi de probabilite pour le processus 
X{n). Ainsi la densite spectrale de puissance estimee dans cette approche correspond a la densite 
spectrale de puissance du processus le plus desordonne (le plus informatif!) qui soit compatible 



avec les donnees (35). 

Une autre approche consiste a maximiser I'entropie relative D [p{x) : po{x)] ou minimiser la 
distance de Kullback K[p{x) : po{x)] ou po{x) est une loi a priori sous les meme contraintes. Le 
choix de cette loi est alors primordial. Evidemment, en choisissant po{x) uniforme, on retrouve le 
cas precedent, mais si on choisit une loi gaussienne pour po{x), I'expression a maximiser devient 



1 

B[p{x) -.poix)] = — J^^ 



( Sju;) 
V 5*0(0;^ 



In 



5*0(0;) 



1 do; 



(39) 



lorsque 1— > 00, et ou Sq{uj) correspond a la densite spectrale de puissance d'un processus de 
reference avec la loi poix). 

Une autre approche consiste a decomposer le processus X{n) sur une base de Fourier 
{cos kiot, sin kcut} et considerer u; comme une variable aleatoire et S{u;), une fois normalise, comme 
une loi de probabilite. On decrit alors le probleme de la determination de S{lo) comme celui de la 
maximisation de 

- r S{uj) \nS{uj)dLJ (40) 



SOUS les contraintes lineaires 



. La solution est de la forme 



exp 



K 



^ Afcexp[jA;a;] 



-K 



(41) 



La densite spectrale de puissance estimee dans cette approche correspond a la densite spectrale de 
puissance la plus uniforme du processus qui est compatible avec les donnees (|35|). 

Une troisieme approche consiste a considerer S{uj) (a lo fixe) comme la moyenne d'une variable 
aleatoire Z{uj) pour laquelle nous supposons disposer d'une loi a priori fj,{z). On cherche ensuite la 
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loi p{z) qui maximise D{p(z); iJ,{z)) sous les contraintes (35). Une fois p{z) determinee, on definit 
la solution par 

S{iu) = E {Z{lo)} = J Z{lo)p{z) dz. (42) 

II est alors interessant de voir que I'expression de S{uj) depend du choix de la loi a priori fi{z) (voir 
paragraphe ^). Lorsqu'on choisit pour /^(z) une loi gaussienne (sur R) on obtient 



H 



(43) 



alors que si on choisit une loi de Poisson (sur R+), on retrouve I'expression de I'entropie (^). 
Finalement, si on choisit une mesure de Lebesgue sur [0, cx)], on obtient I'expression de I'entropie 
). Voir aussi : l2|, ||, M M M, O]. 



5 Entropie pour la resolution des problemes inverses lineaires 

Lorsqu'on cherche a resoudre un probleme inverse lineaire numeriquement, on est rapidement 
amene a chercher une solution x pour I'equation 

y = Ax, (44) 

ou A est une matrice de dimensions (M x A^), en general singuliere ou tres mal conditionnee. Bien 
que les cas Af > ou Af = aient les memes difiicultes que le cas M < N, nous consider ons 
seulement ce deuxieme cas pour plus de clarte. Dans ce cas, a I'evidence, soit le probleme n'a pas 
de solution, soit il en possede une infinite. Nous nous plagerons dans ce dernier cas oii la question 
est de choisir une seule solution. 

Parmi les differentes methodes, on pent noter I'utilisation de la norme \\x\\'^ pour ce choix — la 
solution de norme minimale : 

xnm= argmax |il(a;) = ||a;||^| = A*(AA*)"^y. (45) 
{X:y=Ax} 

Mais, ce choix permettant d'obtenir une unique solution a ce probleme n'est pas le seul possible. 
En effet, tout critere ^{x) qui est convexe en x pent etre utilise. On pent mentionner en particulier 

Vl{x) = — '^^Xj \nxj (46) 

lorsque les Xj sont positifs et lorsque = 1, ce qui, par analogic avec la definition de I'entropie, 
assimile les Xj a une distribution de probabilite Xj = P{U = Uj). La variable aleatoire U pent ou 
non avoir une realite physique. Q(x) est alors I'entropie associee a cette variable. 

Une autre approche consiste a supposer Xj = E {Uj} ou encore x = E {U} oil U est un vecteur 
aleatoire, qui pent ou non avoir une realite physique. Supposons maintenant que U admet une loi 
de probabilite p('u) que I'on cherche a determiner. En notant que les donnees y = Ax = AE {U} = 
E {AU} peuvent etre considerees comme des contraintes lineaires sur cette loi, on pent utiliser de 
nouveau I'entropie pour determiner la loi p{u) : 

p{u) = argmax {D\p{u) : lJ-{u)]} (47) 

{X:y=J Aup{u) du} 

ou n{u) est une loi a priori dont nous montrerons par la suite I'importance. La solution est bien 
connue : 

P{u) = exp [-A*Aw] (48) 
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mais le plus interessant est de voir ce que devient x = E {U}. Bien evidemment, x depend de 
Le tableau qui suit donne quelques exemples : 





X = A*A 


AA*A = y 


li{u) oc exp[-X;j \uj\] 


X = l./(A*A± 1) 


Ax = y 


li{u) oc exp[— Y.j exp [— /3uj]], uj > 


X = al./(A*A + /91) 


Ax = y 



Dans le cas plus general, remplagant ( ^8|) dans (^) et definissant Z{X) = j fi{u) exp [— A* Au] dtt, 

G{s) = In y^(ti) exp [— s*it] du et sa convexe conjugee F{x) = sup^ {a;*s — on pent 

montrer que a; = E {U} pent etre obtenu, soit comme une fonction de son vecteur dual A par 
X = G'(A*A) ou A est solution du probleme d'optimisation 

A = arg min \d{X)= In Z(A) + A*y | , (49) 
A ^ ^ 

soit directement comme la solution du probleme d'optimisation sous contraintes 

x= argmin {F{x)} . (50) 
{X : Ax=y} 

D{X) est appele "critere dual" et F{x) "critere primal". Parfois, il est plus facile de resoudre le 
probleme dual, mais il n'est pas toujours possible d'obtenir une expression explicite pour G{s) et 
son gradient G'{s). Les fonctions F{x) et G{s) sont convexes conjuguees. 

6 Conclusions 

La notion d'entropie, vue comme une mesure de la quantite d'information dans les realisations 
d'une variable aleatoire est utilisee de multiples fagons dans difFerents domaines du traitement de 
I'information. Lors de son utilisation, il est tres important de bien preciser quelle est la variable 
consideree, quelles sont les donnees, quelle est la relation entre les donnees et cette variable, et 
finalement, quelle est le critere optimise. Par exemple, en estimation spectrale, nous avons vu 
comment le choix de la variable aleatoire {X{n), S{uj) ou Z{ijS)\ le choix du critere (entropie ou 
entropie relative) et le choix de la loi a "priori dans le cas de I'entropie relative, peuvent influencer 
I'expression de la solution. Bien entendu, nous n'avons pas discute ici le probleme de I'estimation 
des coefficients de correlation a partir des echantillons du signal. Par ailleurs, I'estimation de la 
densite spectrale de puissance d'un processus a partir d'une connaissance partielle de ses coefficients 
de correlation n'est qu'un cas particulier des problemes inverses lineaires. 
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